\chapter{Avaliação da Qualidade}
\section{Observatório Web}

A fim de avaliar a qualidade do observatório da Web, torna-se necessário atribuir  indicadores que permitam mensurar o grau de qualidade ou de confiabilidade das informações geradas pelo observatório. Como se trata de um processo sequencial realizado em diferentes estágios, a qualidade precisa ser desmembrada também de acordo com os estágios. Ao final, a qualidade geral do observatório será resultado da combinação dos indicadores individuais~\cite{avalqualidade10}.

\begin{center}
    \begin{tabular}{ | p{2,5cm} | p{2cm} | p{5cm} | p{5cm} |}
    \hline
    \textbf{Estágio} & \textbf{indicador} & \textbf{Definição} & \textbf{Forma de obtenção} \\ \hline
    1 - Coleta de Dados & Cobertura (A) & Avalia o quão completa a coleta de dados está de acordo com o universo que deveria ser coletado & Replica-se o serviço de coleta de dados em diferentes servidores. 
    
    Compara-se a lista de objetos coletados nos diferentes servidores para avaliar se está consistente. \\ \hline
    1 - Coleta de Dados & Cobertura (B) & Avalia o quão completa a coleta de dados está de acordo com o universo que deveria ter sido coletado. & Compara-se a lista de objetos coletados usando o método original de coleta com outra lista de objetos coletados a partir de outro método:
    
    - API do Twitter;
    
    - Usando aplicativo Google Reader.\\ \hline
    \end{tabular}
\end{center}

Com relação ao estágio da coleta de dados, não está claro a completude que a coleta de dados deveria obedecer de acordo com o universo determinado, pois a fonte de obtenção seria apenas uma, a API do Twitter por exemplo, não podendo ser possível a comparação dos dados com o que realmente é esperado, pois não se sabe ao certo a quantidade de dados que se espera obter. O que pode ser feito, neste caso, é averiguar se o coletor de dados possuiu falhas durante o processo de coleta e durante quanto tempo, a partir dos logs de falhas. 

\begin{center}
    \begin{tabular}{ | p{2,5cm} | p{2cm} | p{5cm} | p{5cm} |}
    \hline
    \textbf{Estágio} & \textbf{indicador} & \textbf{Definição} & \textbf{Forma de obtenção} \\ \hline
    2 - Extração sintática & Taxa de extração bem sucedida & Avalia a percentagem de objetos que conseguiram ser extraídos corretamente; trata-se de um teste booleano, que indica se extraiu corretamente (1) ou não (0).& O programa de computador que realiza a extração sintática verifica automaticamente se a extração foi bem sucedida e faz o registro para fins de calculo do indicador. \\ \hline
    2 - Extração sintática & Taxa de extração incompleta & Avalia a percentagem de objetos que não foram extraídos conforme se esperava & Para gerar tal indicador, será necessário um processo MANUAL de verificação usando uma metodologia de amostragem. \\ \hline
    2 - Extração sintática & Taxa de extração incorreta & Avalia a porcentagem de objetos que não foram corretamente extraídos, conforme se esperava. & Para gerar tal indicador será necessário um processo MANUAL de verificação usando uma metodologia de amostragem.\\ \hline
    \end{tabular}
\end{center}

Com relação ao estágio da extração sintática, será feito o rastreamento da falha no caso da saída da mesma não condizer com o esperado, ou seja, extrair ou não os objetos definidos pelo processo. Pode acontecer da extração não condizer com o esperado como o exemplo do filme “O chamado”, ocorrendo a retirada do artigo “O” e coletar várias palavras de contexto como “O filho da mulher está sendo chamado”, não significando que “chamado” seja o filme. Problema este que também pode estar associado ao coletor de dados e ao processo de filtragem. Como podemos observar, a rastreabilidade desse tipo de falha será de desenvolvimento.

\begin{center}
    \begin{tabular}{ | p{2,5cm} | p{2cm} | p{5cm} | p{5cm} |}
    \hline
    \textbf{Estágio} & \textbf{indicador} & \textbf{Definição} & \textbf{Forma de obtenção} \\ \hline
    3 - Processo de filtragem & Grau de similaridade & A detalhar... & A detalhar... \\ \hline
    3 - Processo de filtragem & Precisão & Avalia, dentro dos objetos recuperados, quais correspondem realmente ao que a filtragem determinava. Ou seja, dentre os objetos que foram avaliados como X quantos são mesmo desse tipo (ou deveriam ser filtrados). & Para gerar tal indicador, será necessário um processo MANUAL de verificação usando uma metodologia de amostragem e verificação da qualidade da filtragem. \\ \hline
    3 - Processo de filtragem & Revocação & Mede a capacidade de um sistema computacional possui de recuperar o máximo de documentos que puder (de seu universo) sobre o valor estipulado. & Para gerar tal indicador, será necessário um processo MANUAL de verificação usando uma metodologia de amostragem e verificação da qualidade da filtragem. \\ \hline
    \end{tabular}
\end{center}

No estágio processo de filtragem, será feita a avaliação de quais objetos fazem parte do esperado. Para determinar como ocorreram falhas durante esse estágio, observaremos as falhas de desenvolvimento e interação.

\begin{center}
    \begin{tabular}{ | p{2,5cm} | p{2cm} | p{5cm} | p{5cm} |}
    \hline
    \textbf{Estágio} & \textbf{indicador} & \textbf{Definição} & \textbf{Forma de obtenção} \\ \hline
    4 - Extração Semântica & Grau de confiança? & A detalhar... & A ser obtido com a técnica de extração semântica de entidades. \\ \hline
    4 - Extração Semântica & Precisão & Avalia, dentre os objetos recuperados, quais correspondem realmente ao que a filtragem determinava. Ou seja dentre os objetos que foram avaliados como X quantos são mesmo desse tipo (ou deveriam ser filtrados).& Para gerar tal indicador, será necessário um processo MANUAL de verificação usando uma metodologia de amostragem e verificação da qualidade da filtragem. \\ \hline
    4 - Extração Semântica & Revocação & Mede a capacidade de um sistema computacional possui de recuperar o máximo de documentos que puder (de seu universo) sobre o valor estipulado. & Para gerar tal indicador, será necessário um processo MANUAL de verificação usando uma metodologia de amostragem e verificação da qualidade da filtragem. \\ \hline
    \end{tabular}
\end{center}

Neste caso do estágio da extração semântica, são observados o problemas semelhantes ao do estágio da filtragem, sendo adotados a rastreabilidade em falhas de desenvolvimento e de interação.


